iT邦幫忙

2025 iThome 鐵人賽

DAY 1
0

在這個 人人都能靠 AI 🤖💻 寫程式、快速學習的時代,工程師反而更容易被捲入潮流之中:不追新,就有被淘汰的危險。我開始思考,有沒有一個地方,能持續提供最新、免費、而且高品質的知識 📚✨?

腦海裡閃過碩士時代天天打開的網站——鼎鼎大名的 arXiv。更幸運的是,它竟然還有 API 😍,也就是說可以把論文抓下來。


然後 大膽又危險的想法 浮現在我腦中惹

每天自動化抓 arXiv 論文 → 解析 PDF → 抽取想要的部分 
→ 放入資料庫 → 產生摘要送給自己

但又想想 這好像 不用 30 天就完成了,所以自己手賤追加需求

同時,也希望整個平台能 支援 RAG + LLM 問答 💡,讓系統不僅被動推送摘要,也能隨時回答我提出的研究問題。

想像一下,早晨 ☕,不只掌握最新研究動態,還能向 AI 發問任何疑惑。以下是本人我腦中浮現畫面

https://ithelp.ithome.com.tw/upload/images/20250908/20136781VSmbxWXLGk.png


我對系統的初步構想:

  • 存放 PDF 的地方 📂 存放原始論文,作為知識源
  • RAG 知識庫 ⚡(支援 LLM 問答)
  • 後端服務 🛠️ 處理一切邏輯
  • 互動前端 🖥️,提供問答入口

從技術角度來看, 這是個 資料蒐集與知識整理問題 🔧

  • 如何從海量論文中挑出真正有價值的片段?
  • 如何把 PDF 轉成可索引、可檢索的向量資料?
  • 如何整合 RAG 與 LLM 生成摘要與回答,保持精準與可理解性?

每個挑戰看似不可能,但幸好 AI 可以當作助手。


而系統的運作可以這麼理解:

  • Arxiv 論文 - 資料寶藏 🎁,需要解析抽取出精華內容。
  • 檢索系統 🧭 - 指南針,快速找到重點
  • 向量資料庫 ⚡ 地圖,建立資料的索引與關聯
  • 語言模型 🧙‍♂️ 魔法師,理解、整理、生成可讀摘要與回答。

而今天,我還沒有程式碼,也沒有明確架構,只有想法和藍圖。就像踏上為期 30 天的探索之旅前,整裝待發 🎒——每個模組、每個資料庫,都是行囊裡的裝備,等待我去驗證、串連、完成。

我不知道接下來會遇到什麼困難:資料清洗、向量化、摘要、超時……這些都可能成為挑戰。但至少這次,我不再是一個人,有 AI 陪伴 🤖。每個構想、每個模組、每次試驗,都是 探險日誌 📖,希望這次可以走完整個旅程 😢。



下一篇
Day 2|畫出我的夢想系統:架構圖初探 — 系統藍圖
系列文
論文流浪記:我與AI 探索工具、組合流程、挑戰完整平台2
圖片
  熱門推薦
圖片
{{ item.channelVendor }} | {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言